超微(AMD)與甲骨文(Oracle)在Oracle AI World大會上,共同宣布大幅擴展雙方長期且跨世代的合作,協助客戶顯著擴展AI能力與相關部署計畫。奠基於多年來的共同創新成果,Oracle Cloud Infrastructure(OCI)將成為首批合作夥伴,提供搭載AMD Instinct MI450系列GPU的公共AI超級叢集,首批將於2026年第3季部署50,000個GPU,並計畫於2027年及未來持續擴大規模。
此項合作奠基於超微與甲骨文先前共同努力的成果,為終端客戶在OCI上提供AMD Instinct GPU平台,始於2024年推出搭載AMD Instinct MI300X的運算型態,並將進一步擴展至搭載AMD Instinct MI355X GPU的OCI Compute正式上市。這些服務將部署於Zettascale等級的OCI超級叢集之中。
隨著新世代AI模型不斷超越現有AI叢集的極限,市場對大規模AI運算容量的需求正加速增長。為訓練與運行這些工作負載,客戶需具備極致規模與效率的靈活且開放式運算解決方案。OCI計劃中的全新AI超級叢集將由AMD「Helios」機架設計挹注動能,結合AMD Instinct MI450系列GPU、代號為「Venice」的新一代AMD EPYC CPU,以及代號為「Vulcano」的新一代AMD Pensando先進網路技術。這套垂直最佳化的機架級架構,旨在為大規模AI訓練與推論提供極致效能、擴展性與能源效率。
Oracle Cloud Infrastructure執行副總裁Mahesh Thiagarajan表示,我們的客戶正在建構世界上最前瞻性的AI應用,需要強大、可擴展且高效能的基礎設施。透過結合AMD最新的處理器創新技術、OCI安全靈活的平台以及由Oracle Acceleron推動的先進網路技術,客戶可以自信地突破極限。透過我們與超微從EPYC到AMD Instinct加速器長達10年的合作,我們將持續攜手為AI時代提供最佳性價比、開放、安全且可擴展的雲端基礎,以滿足客戶對新時代AI的需求。
AMD執行副總裁暨資料中心解決方案事業群總經理Forrest Norrod表示,超微與甲骨文持續引領雲端AI的創新節奏。憑藉AMD Instinct GPU、EPYC CPU和先進的AMD Pensando網路技術,Oracle客戶獲得強大的新功能,可用於訓練、微調和部署新一代AI應用。雙方共同透過為大規模AI資料中心打造的開放、最佳化且安全的系統,以加速AI發展。
搭載AMD Instinct MI450系列GPU的運算型態,旨在提供高效能且靈活的雲端部署選項,並具備廣泛的開源支援。這為客戶運行當今最先進的語言模型、生成式AI和高效能運算(HPC)工作負載提供理想的基礎。透過OCI上的AMD Instinct MI450系列GPU,客戶將能受益於:
– 突破性的運算與記憶體技術:透過增加AI訓練模型的記憶體頻寬,協助客戶加速成果產出、處理更複雜的工作負載,並降低模型分割的需求。每個AMD Instinct MI450系列GPU將提供高達432 GB的HBM4記憶體與20 TB/s的記憶體頻寬,讓客戶能夠在記憶體內完整訓練與推論比前一代大50%的模型。
– 超微最佳化的「Helios」機架設計:透過高密度、液冷式設計的72個GPU機架,讓客戶在大規模部署中兼顧最佳化效能密度、成本與能源效率。AMD 「Helios」機架設計整合UALoE向上擴展連接性,以及基於乙太網路並符合超高速乙太網路聯盟(UEC)標準的向外擴展網路,以最小化叢集與機架之間的延遲並最大化吞吐量。
– 強大的前端節點:透過採用代號為「Venice」的新一代AMD EPYC CPU,強化作業編排與資料處理,協助客戶最大化叢集利用率並簡化大規模工作流程。此外,EPYC CPU將提供機密運算功能和內建安全功能,以端對端保護敏感的AI工作負載。
– DPU加速的融合網路:以線速資料擷取提升大規模AI與雲端基礎設施效能並強化安全態勢。基於完全可程式化的超微Pensando DPU技術,DPU加速的融合網路提供資料中心運行新世代AI訓練、推論和雲端工作負載所需的安全性和效能。
– AI向外擴展網路:讓客戶能夠利用超高速分散式訓練與最佳化集體通訊,搭配具備未來性的開放式網路架構。每個GPU可配備多達3個800 Gbps的AMD Pensando “Vulcano” AI網路卡(AI-NIC),為客戶提供支援先進RoCE和UEC標準的無損、高速且可程式化連接能力。
– 創新的UALink和UALoE網路架構:協助客戶有效延展工作負載、緩解記憶體瓶頸,並編排大型的數兆參數模型。此可擴展架構能最小化傳輸跳數與延遲,且無需透過CPU路由,並透過UALoE網路架構傳輸的UALink協定,實現機架內GPU之間直接且硬體一致的網路互連與記憶體共享。UALink是專為AI加速器打造的開放式高速互連標準,並獲得廣泛產業體系支持。因此,客戶將享有在基於開放標準的基礎設施上運行最嚴苛AI工作負載所需的靈活性、擴展性與可靠性。
– 開源AMD ROCm軟體堆疊:透過為客戶提供開放、靈活的程式設計環境,涵蓋主流框架、函式庫、編譯器和執行環境,實現快速創新、提供供應商選擇自由,並簡化現有AI和HPC工作負載的遷移。
– 進階分割與虛擬化:透過細粒度GPU和叢集分割、SR-IOV虛擬化技術以及強大的多租戶能力,讓客戶根據工作負載需求分配GPU,安全且高效地共享叢集資源。
為提供大規模建構、訓練與推論AI的客戶更多選擇,OCI同步宣布搭載AMD Instinct MI355X GPU的OCI Compute正式上市。這些服務將在可擴展至131,072個GPU的Zettascale等級OCI超級叢集中提供。搭載AMD Instinct MI355X的運算型態具備高性價比、雲端部署靈活性與開源相容性。